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摘要 : [目的 /意义 ] 学 术 文 本 结构 功能 是 对 学 术 文 献 的 结构 和 章节 功能 的 概括 ,针对 当前 研究 较 少 从 学 术 
文本 多 层次 结构 出 发 进行 融合 和 传统 方法 依赖 人 工 经 验 构建 规则 或 特征 的 问题 ,本 文 在 对 学 术 文本 层次 结构 
进行 解析 的 基础 上 ,构建 了 多 层次 融合 的 学 术 文本 结构 功能 识别 模型 。 [方法 “过程 ] 以 ScienceDirect 数据 集 为 
例 进 行 实验 ,该 模型 首先 通过 深度 学 习 方法 对 不 同 层次 学 术 文 本 进行 结构 功能 识别 ,接着 采用 投票 方法 对 不 同 
层次 和 不 同 模型 的 识别 结果 进行 融合 。[ 结果 /结论 ] 研究 结果 表明 各 层次 集成 后 的 整体 效果 较 单 一 模型 均 有 
不 同 程度 提升 ,综合 结果 的 整体 准确 率 、 召 回 率 和 Fl 值 分 别 达 到 86% 、84% 和 84% ,并 且 深 度 学 习 算法 在 学 术 
文本 分 类 任务 中 的 性 能 较 传 统 机 器 学 习 算 法 SVM 更 优 ,最 后 对 学 术 文本 结构 功能 错 分 情况 进行 了 分 析 , 指出 
未 研究 洲 在 的 应 用 领域 和 下 一 步 的 研究 方向 。 
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开始 越 来 越 规范 和 标准 ,尤其 是 以 生物 学 领域 为 代表 
本 三 的 IMRAD 结构 的 采用 中 ,但 是 这 种 结构 化 的 论文 格式 
3 近年 米 , 随 着 科学 研究 工作 的 进展 ,科研 论文 的 产 。 并 没有 被 所 有 的 学 术 文本 和 研究 领域 采纳 。 而 越 来 越 


晤 记 来 爆发 式 增长 。 以 微软 学 术 为 例 , 截 至 2017 年 。 多 的 研究 指出 ,学 术 文本 的 结构 功能 对 于 信息 检索 中 、 


3 赴 其 包含 的 数据 记录 达到 1.68 亿 条 ,并 且 以 每 个 月 。 关键 词 抽取 5 ,引文 分 析 "- 中 等 任务 的 研究 具有 明显 
130O1 的 记录 量 持续 增长 ”。 学 术 论文 是 科研 人 员 进 。 的 提升 作用 。 因 此 ,对 大 规模 学 术 文本 实现 结构 功能 


行 吏 术 研究 最 主要 的 信息 来 源 , 科 研 人 员 在 获取 学 术 自动 识别 具有 重要 的 研究 意义 和 实际 应 用 价值 。 


信息 的 时 候 , 往 往 是 目标 和 任务 驱动 ,更 加 关注 文章 的 目前 对 学 术 文 本 结构 功能 识别 的 研究 主要 从 文档 


某 寺 个 特定 部 分 ,例如 方法 结果 或 者 相关 研究 的 综述 逻辑 结构 的 视角 出 发 ,采用 基于 规则 或 基于 机 器 学 习 


等 “ ,不 同 结构 部 分 对 不 同学 者 的 重要 性 和 兴趣 也 的 方法 ,对 学 术 文本 不 同 层次 的 逻辑 结构 进行 识别 ,如 
是 不 一 样 的 ”。 在 此 背景 下 ,学 术 文 本 结构 功能 识别 。 标题 识别 7 .音节 识别 中 -由 段落 识别 "号 等 ,在 实际 
已 经 成 为 学 术 大 数据 分 析 与 挖掘 领 域 骂 需 解 决 的 热点 。 应 用 中 取得 了 一 定 的 效果 ,但 是 依然 存在 两 个 问题 。 
问题 ”。 第 一 ,对 学 术 文本 不 同 结构 部 分 进行 单独 识别 ,而 没有 

学 术 文本 结构 功能 是 指 对 学 术 文献 的 结构 和 章节 ”从 文章 的 整体 层次 结构 出 发 ,融合 多 层次 结构 特征 进 
功能 的 概括 ,不 同 的 章节 对 于 论文 内 容 的 表达 具有 特 。” 行 识别 。 实 际 上 学 术 文 本 不 同 层次 的 文本 信息 包含 了 
定 的 功能 性 作用 ”。 学 术 文本 的 结构 比较 规范 和 固 不同 的 特征 和 语义 信息 ,综合 各 个 部 分 的 信息 可 以 提 
定 ,具有 一 定 的 逻辑 和 层次 。 一 篇 学 术 论文 通常 由 标 “， 供 更 加 完整 和 准确 的 判断 。 第 二 ,传统 的 基于 规则 或 
题 , 作 者 ,摘要 、 关 键 词 和 章节 组 成 ,章节 又 包括 章节 标 ”者 机 器 学 习 的 方法 需要 人 工 构建 规则 或 者 提取 特征 ， 
题 .段落 图表、 公式 .引用 等 内 容 55 。 尽 管 学 术 文本 “结果 的 好 坏 严重 依赖 于 人 工 经 验 , 迁 移 能 力 较 低 。 而 
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深度 学 习 可 以 自动 完成 数据 表示 和 特征 提取 ,通过 学 
习 过 程 提 取出 不 同 水 平 ,不 同 纬度 的 有 效 表示 ,从 而 提 
高 不 同 抽象 层次 上 对 数据 的 解释 能 力 "” ,具有 增 量 学 
习 \ 可 迁移 性 强 等 特点 。 为 了 解决 上 述 问 题 ,本 研究 在 
对 学 术 文 本 多 层次 结构 进行 解析 的 基础 上 ,将 学 术 文 
本 正文 划分 为 5 个 结构 功能 类 别 , 采 用 深度 学 习 和 投 
票 的 方法 ,构建 了 多 层次 融合 的 学 术 文 本 结构 功能 识 
别 模型 ,在 计算 机 语言 学 领域 学 术 文 本 数据 集 上 对 模 
型 的 有 效 性 进行 测试 和 评 


2 相关 研究 


本 研究 主要 关注 从 文本 内 容 角 度 出 发 对 学 术 文 本 


S 


[e] 


人 “将 深度 学 习 方 法 用 于 域 自 适 应 情感 分 类 问题 ,从 
无 监督 的 在 线 评论 和 建议 中 提取 有 意义 的 特征 表示 ， 
实验 结果 表明 用 高 阶 特征 表示 训练 的 情感 分 类 器 的 学 
习性 能 明显 优 于 当前 的 其 他 方法 。M.，M.，Rahman 等 
人 "将 循环 神经 网 络 (Recurrent Neural Networks ， 
RNN) 引 入 到 文档 结构 深度 理解 研究 中 ,并 取得 不 错 的 
效果 。 

综合 来 看 ,传统 基于 规则 的 方法 需要 人 工 构建 规 
则 ,算法 一 般 针 对 特定 的 文档 类 型 ,结果 的 准确 性 得 不 
到 保证 。 机 器 学 习 的 方法 较 基 于 规则 的 方法 在 识别 的 
精度 和 效率 上 有 一 定 的 提高 ,但 该 方法 的 缺点 在 于 依 
靠 人 工 经 验 抽取 样本 特征 ,模型 学 习 后 获得 的 是 没有 


结构 功能 的 分 析 和 识别 ,目前 对 该 问题 的 研究 主要 围 
绕 交 档 逻 辑 结构 “展开 ,主要 研究 方法 可 以 分 为 基于 


层次 结构 的 单 层 特征 。 相 比 传统 机 器 学 习 人 工 构建 特 
征 的 方式 ,深度 学 习 能 够 更 加 高 效 的 自动 完成 数据 表 


规则 的 方法 和 基于 机 器 学 习 的 方法 。 基 于 规则 的 方法 
让 要 通过 从 文档 的 布局 和 文本 特征 角度 出 发 人 工 构 建 
规 列 , 实 现 对 学 术 文 本 结构 的 划分 。 如 J Kim 等 人 ™™ 
通 邓 对 文档 布局 的 分 析 和 光学 字符 识别 (Optical Char- 
agtef Recognition，OCR) 结果 特征 的 抽取 构建 规则 , 实 
现 如 生物 医学 学 术 文献 中 标题 ,作者 .单位 和 摘要 的 自 
动 剑 注 。A，Constantin 等 人 中 设计 了 一 个 基于 规则 的 
系 编 PDFX, 可 以 把 PDF 格式 的 学 术 文本 的 逻辑 结构 
进 神 重组 ,并 从 标题 .作者 .正文 和 参考 文献 等 语义 层 
面 对 其 进行 描述 。 

>< 基 于 机 器 学 习 的 方法 将 学 术 文本 结构 识别 转化 为 
文 水分 类 问题 ,采用 相应 的 机 器 学 习 方 法 进行 识别 。 
如 型 T，Luong 等 人 "采用 条 件 随机 场 的 方法 实现 了 
学 二 文本 标题 .作者 .摘要 .图表 公式 等 逻辑 结构 的 识 
别 。S. Tuarob 等 人 "采用 随机 森林 、 支 持 向 量 机 和 朴 


示 和 特征 提取 ,通过 低层 的 特征 组 合 , 形 成 更 加 抽象 的 
深层 表示 类 型 或 特征 ,从 而 提高 数据 的 解释 能 力 , 近 年 
来 在 文本 分 类 领域 得 到 了 越 来 越 多 地 应 用 。 


3 ”多 层次 融合 结构 功能 识别 模型 构建 
3.1 学 术 文本 多 层次 结构 
学 术 文 本 通常 具有 严谨 的 逻辑 结构 和 规范 的 层 


次 ,遵循 科学 研究 的 一 般 过 程 ,从 提出 研究 问题 ,介绍 
研究 方法 到 结果 的 讨论 和 结论 ,具有 不 同 目的 和 功能 
的 章节 部 分 组 成 了 一 篇 完整 的 学 术 文章 。 本 文 主要 针 
对 学 术 文 本 正文 部 分 进行 结构 功能 识别 ,根据 学 术 文 
本 的 逻辑 结构 ,结合 前 人 的 研究 成 果 "“” 和 本 研究 所 
使 用 的 数据 集 ,将 学 术 文本 的 正文 结构 功能 划分 为 引 
言 “ 相 关 研 究 “ 方 法 “实验 ”和 "结论 "5 个 部 分 。 

学 术 文本 的 正文 由 多 个 音节 组 成 ,每 一 个 章节 由 


素 贝 叶 斯 等 机 器 学 习 方 法 ,通过 划分 章节 边界 实现 学 
术 文 本 华 节 语义 层次 的 自动 识别 ,虽然 结果 准确 度 达 
到 了 92.38% ,但 是 只 在 227 篇 学 术 文 档 上 进行 了 实 
验 。 黄 永 等 人 从 章节 标题 、 章 节 内 容 ” 和 段落 内 
容 " 三 个 层次 ,分 别 采用 CRF .SVM 等 方法 实现 了 学 


章节 标题 (Section header) 和 章节 内 容 (Section) 组 成 ， 
每 一 个 章节 内 容 又 包括 数量 不 等 的 段落 内 容 (Para- 
graph) ,如 图 1 样 例 所 示 。 结 构 功 能 识别 就 是 对 学 术 
文本 中 章节 的 功能 和 目的 的 标注 ,其 本 质 是 一 种 基于 
学 术 文 本 内 容 的 分 类 问题 ,根据 研究 对 象 和 粒度 的 不 


术 文本 结构 功能 的 自动 识别 ,并 取得 不 错 的 效果 。 

深度 学 习作 为 机 器 学 习 的 一 个 分 支 , 近 年 来 在 自 
然 语言 处 理 领 域 取得 快速 进展 。 深 度 学 习 概 念 最 早 由 
G. E. Hinton ”在 2006 年 提出 ,深度 学 习 通 过 建立 、 
模拟 人 脑 的 分 层 结构 来 实现 对 外 部 输入 的 数据 进行 从 
低级 到 高 级 的 特征 提取 ,建立 起 低级 特征 到 高 级 语义 
之 间 复 杂 的 映射 关系 。R. Salakhutdinov 等 人 ”将 深 
度 信念 网 络 (Deep Belief Network ，DBN ) 和 堆栈 自 编码 
网 络 用 于 对 文档 建立 索引 以 便 检索 。X.，Glorot 等 
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同 ,其 自动 识别 可 以 分 为 三 个 层次 。 第 一 ,章节 标题 层 
次 的 结构 功能 识别 , 即 根据 学 术 文本 章节 标题 文本 进 
行 章节 功能 分 类 ;第 二 ,章节 内 容 层 次 的 结构 功能 识 
别 , 即 从 学 术 文本 音节 全 部 内 容 出 发 进行 识别 ,提供 更 
多 的 文本 特征 信息 ;第 三 ,章节 段落 层次 的 结构 功能 识 
别 ,首先 对 章节 内 所 有 段落 进行 文本 分 类 ,根据 多 数 投 
票 原则 ,所 有 段落 中 输出 类 别 最 多 的 那个 类 就 是 对 应 
的 该 章节 的 结构 功能 。 
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Grasping the Structure of Journal Articles: Utilizing the Functions of Information Units 


Introductio Section header| 
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information brougt 
arch and the publ 


F .» 2009). To meet the demand a 
Nstated above, this study endeavors to find a way to help read 
中 locate and consume the most relevant information withi 


lisystem n for supporting information seeking and use1 
NGenre can tell about the function of a document with a few 
words. Genre knowledge can enable the reader to instantl 
ecognize what the document would look like (form), coni 
' equently what it means (content), and ultimately what it is 
used for (purpose). Genre instances can vary in granularity— 
Paragraph n an individual web page. multiple web pages. a website, of 
part of a web page can all be considered as comprising 
lgcnre (Crowston & Williams, 2000: Rosso, 2008:; Shepherd ka 
Watters, 1998). Most existing studies on digital genre hav 
ifocused on the level of documents such as journal arti 
Mcles (Dillon, 2004), web pages such as web newspaper 
NVaughan, 1999) or websites such as academic and corpo4 
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The literature pertaining to the context and the theoreticall 
framework of this research is reviewed in the following tw 
sections. 


Genre Studies in Information Science 


Genre studies in information science can be applied ‘ol 
knowledge organization, web design, and digital communi 
cation (Andersen. 2008). The first two threads are closelyl 

related to this research, which indicates the functions of they 
Winformation and the structural relations between | 


Efunctional units. 
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3@D 学术 文本 结构 功能 识别 模型 构建 

全 本 文 以 深度 学 习 技 术 为 基础 ,融合 章节 标题 , 章 
岗 宏 和 章节 段落 三 个 层次 对 学 术 文本 结构 功能 进行 识 
别 ; 整 体 研究 框架 如 图 2 所 示 , 主要 分 为 两 个 模块 , 基 
忆 深 度 学 习 的 结构 功能 分 类 和 基于 投票 方法 的 多 层次 
融 神 。 该 模型 的 优势 在 于 能 够 将 学 术 文本 不 同 层次 的 
特征 集成 在 一 起 ,提供 了 从 学 术 文本 正文 全 局 出 发 的 
结 移 功 能 识别 ,并 巧妙 的 引入 集成 学 习 的 思想 并 采用 
投票 的 方法 对 不 同 层 次 的 识别 结果 进行 融合 。 相 比 单 
一 层次 的 识别 ,该 模型 的 应 用 场景 更 加 丰富 ,识别 结 

效果 更 好 。 

3.2.1 基于 深度 学 习 的 结构 功能 分 类 ”基于 深度 学 
习 的 学 术 文本 结构 功能 分 类 模块 分 为 5 个 部 分 :输入 
层 . 词 脱 入 层 .特征 学 习 层 .Softmax 层 和 输出 层 。 输 入 
层 即 分 别 由 章节 标题 .章节 内 容 和 章节 段落 内 容 构成 
的 带 标签 的 训练 集 和 测试 集 , 并 将 待 分 类 文本 统一 为 
同等 长 度 。 词 杠 和 人 层 将 输入 层 的 文本 转化 为 向 量 表 
示 , 本 研究 采用 word2vec 工具 来 生成 词 向 量 模型 ,将 每 
个 词 用 一 个 下 维 实 向 量 进行 表示 。 用 word2vec 生成 
的 词 向 量 不 仅 能 很 好 的 解决 稀疏 性 的 问题 ,而 且 可 以 
通过 余弦 相似 度 .欧式 距离 等 方法 计算 词 之 间 的 相似 
度 。 特 征 学 习 层 是 整个 分 类 模型 中 最 重要 的 部 分 ,本 
文 分 别 采 用 卷 积 神经 网 络 (Convolutional Neural Net- 
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整体 研究 框架 


workk ，CNN ) .长 短 时 记忆 网 络 (Long Short Term Memo- 
ry, LSTM) 和 CNN + LSTM 模型 对 已 知 类 别 的 词 向 量 
表示 进行 学 习 , 得 到 训练 好 的 模型 ,从 而 对 测试 集 文本 
进行 分 类 。Softmax 层 采 用 Softmax 作为 激活 函数 ,对 
特征 学 习 层 模型 传递 来 的 信息 进行 学 习 , 计 算出 待 分 
类 数据 属于 各 个 类 别 的 概率 ,是 深度 学 习 多 分 类 问题 
最 常用 的 一 个 归 一 化 函数 。 输 出 层 将 测试 集 各 类 别 的 
预测 结果 及 每 一 条 数据 归属 各 个 类 别 的 概率 进行 输 
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出 。 接 下 来 ,分 别 对 CNN .LSTM 和 CNN + LSTM 模型 
进行 描述 。 
(1) CNN。 本 文 构建 的 CNN 模型 结构 如 图 3 所 


示 , 由 输入 层 . 卷 积 层 . 池 化 层 和 输出 层 组 成 。 
nx256 
3x256 图 17 
4x 256 国 加 图 
| | 站 回 
[| | | Ea 
5x256 [1 
轩 
输入 层 卷 积 层 ” 池 化 层 。 ”输出 层 


图 3 CNN 结构 图 


输入 层 是 大 小 为 nx d 的 学 术 文本 各 层次 对 应 的 
词 向 量 特征 矩阵 5,n 表示 输入 文本 的 长 度 ,对 于 长 度 
布 是 的 文本 进行 补 零 处 理 ,d 表示 词 向 量 维度 ,本 文 
中 Sbrd embedding 长 度 均 为 256。 卷 积 层 是 对 文本 特 


| 


征 铅 量 进行 高 层次 特征 提取 的 过 程 ,本 文采 用 VALID 
Ping 方式 对 边界 进行 处 理 , 步 长 为 1。 对 某 一 卷 积 
榜 w, 每 一 步 在 一 个 高 度 为 h 的 窗口 内 进行 卷 积 操 作 ， 
担 异 出 一 个 新 的 特征 6: 
ci=f(w* Si +b) 公式 (1) 
中 ,代表 激活 函数 ,本 文采 用 ReLU 函数 作为 
个 神经 元 的 激活 函数 ,2 代表 偏 置 ,h 代表 卷 积 计算 
动 窗口 的 大 小 ,为 了 尽 可 能 充分 提取 出 不 同 粒度 


get gate) 和 输出 门 (output gate) 构成 ” 。 记 忆 细 胞 通 

过 状态 参数 (state) 记录 信息 ,并 通过 相互 交互 的 门 单 

元 控制 记忆 信息 值 的 修改 和 传递 ,输入 门 和 输出 门 负 

责 对 参数 的 输入 和 输出 进行 取舍 ,而 遗忘 门 用 来 设置 

选择 性 遗忘 的 权重 。 某 时 刻 i,LSTM 各 结构 状态 更 新 

公式 如 下 : 

i,= sigmoid( W,* [h,_,,%,] +6;,) 公式 (2) 

f= sigmoid( W, * [hi ,x,] +0,) 公式 (3) 

0,= sigmoid(W,* [h,_1,x,] +6,) 公式 (4) 

C= fx*C i+ti*tanh(W*[h, ,x,] +b.) 

公式 (5) 

h,= o,*tanh(C,) 公式 (6) 

其 中 ,i, VY、o,、C, 分 别 表示 tt 时 刻 的 输入 门 、 遗 忘 

门 、 输 出 门 和 记忆 细胞 状态 ,x, 表示 上 时 刻 的 输入 向 

量 ,h, 表示 隐藏 状态 ,W;、W、W,、WW。 和 b;、bj、0。、be 分 

别 表示 对 应 的 权重 和 矩阵 和 偏 置 向 量 。LSTM 正 是 通过 

这 种 特殊 的 门 结构 和 记忆 单元 设置 ,才能 选择 哪些 信 

息 被 遗忘 ,哪些 信息 被 记 住 ,避免 了 梯度 消失 问题 ,也 
能 学 到 长 周期 的 信息 。 

(3)CNN +LSTM。CNN 模型 的 优点 在 于 能 够 通过 
滑动 窗口 对 局 部 文本 进行 卷 积 操作 从 而 提取 局 部 文本 
特征 ,缺点 在 于 其 对 位 置 不 敏感 ,没有 序列 刻画 的 能 
力 。LSTM 模型 可 以 很 好 的 捕捉 词汇 之 间 的 序列 关系 ， 
缺点 在 于 其 是 一 个 “有 偏 ”模型 ,次 序 越 徘 后 的 词语 越 


大 入 的 局 部 特征 ,本 文 设计 了 3.4 和 5 这 三 种 不 同 大 
小 网 卷 积 核 结构 组 合 使 用 。w 在 | 5,, Sn， 
5: 织 | 这 nn-h+1 个 窗口 进行 一 轮 完整 的 卷 积 运算 ， 
最 终生 成 特征 向 量 C= [c ,cc ]。 

为 了 获取 输入 文本 中 最 有 用 的 文本 片段 ,需要 对 
卷 积 层 提取 出 的 特征 向 量 C 进行 最 大 池 化 操作 (Max 
Pooling) ,提取 出 最 大 值 2 = max(C) , 即 寻 找 对 分 类 结 
果 影响 最 大 的 因素 。 同 时 ,通过 池 化 固定 了 全 连接 层 
的 神经 元 个 数 ,也 固定 了 全 连接 层 输出 特征 的 长 度 。 

最 后 ,在 输出 层 通 过 全 连接 的 方式 将 所 有 得 到 的 
局 部 最 优 特征 连接 到 最 后 一 层 的 输出 结 点 ,通过 Soft- 
max 函数 输出 学 术 文 本 结构 功能 的 判别 结果 ,并 依据 
训练 集中 的 真实 标签 ,采用 反 向 传播 算法 对 CNN 中 的 
参数 进行 梯度 更 新 。 

(2)LSTM。LSTM 模型 是 一 种 改进 的 RNN 模型 
针对 RNN 模型 存在 的 梯度 消失 问题 ,由 S，Hochreiter 
和 J，Schmidhuber' 在 1997 年 提出 。LSTM 用 一 个 记 
忆 单 元 替换 原来 RNN 模型 中 的 隐藏 层 单元 ,该 记忆 单 
元 由 记忆 细胞 (cell) .输入 门 (input gate) .遗忘 门 (for 


一 
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重要 。 所 以 本 研究 尝试 对 CNN 和 LSTM 模型 进行 结 
合 ,探究 CNN + LSTM 模型 在 学 术 文 本 结构 功能 识别 
中 的 效果 ,并 与 单独 使 用 CNN 或 LSTM 模型 进行 对 比 。 
CNN + LSTM 的 方法 ,具体 来 说 ,就 是 将 LSTM 的 输出 
作为 CNN 卷 积 层 的 输入 ,将 LSTM 隐藏 层 的 值 与 CNN 
池 化 层 结 果 进 行 结合 ,最 后 通过 全 连接 的 方式 在 输出 
层 进 行 类 别 输出 。 

3.2.2 基于 投票 法 的 多 层次 融合 “投票 法 (voting) 是 
集成 学 习 里 面 针对 分 类 问题 的 一 种 结合 策略 ,基本 思 
想 是 选择 所 有 算法 当中 输出 最 多 的 那个 类 。 相 比 单个 
分 类 算法 ,集成 算法 通过 多 个 分 类 器 解决 同一 个 问题 ， 
具有 更 好 的 泛 化 能 力 ,结果 的 质量 要 高 于 单个 分 类 算 
法 ,在 实际 应 用 中 取得 较 好 的 效果 。 本 文 遵循 多 数 
投票 法 的 规则 ,根据 公式 (7) 对 识别 结果 进行 融合 , 即 
对 于 每 一 个 章节 x,H,P,S 分 别 表 示 该 音节 对 应 的 章 
节 标 题 .章节 段落 和 章节 内 容 三 个 层次 的 分 类 结果 ,R 
为 经 过 投票 得 到 的 融合 结果 , 即 分 类 结果 中 得 票数 最 
多 的 类 别 便 为 该 章节 的 结构 功能 。 

R(x) = Vote(H(x) ,P(x),S(x)) 


公式 (7) 
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4 ”实验 与 结果 分 析 


4.1 实验 环境 
本 文中 所 有 的 实验 均 在 如 表 1 所 示 的 实验 环境 中 


完成 : 
表 1 实验 环境 及 配置 
实验 环境 环境 配置 
操作 系统 Ubuntul16. 04 
GPU NVIDIA GeForce GTX 750 Ti 
内 存 16G 
编程 语言 Python3.5 
深度 学 习 框 架 TensorFlow]. 2 
word embedding 训练 工具 Word2vec 
4.2 数据 集 


本 文 的 实验 数据 来 自 ScienceDirect 数据 库 2000 
2014 年 的 计算 机 语言 学 领域 期 刊 论文 ,随机 选取 


营 前 标题 .章节 内 容 和 章节 内 所 有 段落 三 个 层次 的 文 
胡 洪 中 包含 章节 标题 21 526 条 ,章节 内 容 21 526 条 ， 
二 段落 184 433 条 。 


月 准确 率 (Precision ,P) 召回 率 (Recall， 
L 调和 平均 值 (Fl1 ) 对 各 个 模型 的 识别 结果 进行 评 
价 5 竹 指标 的 计算 公式 如 下 : 
己 准 确 率 P = 正确 识别 的 结构 功能 数 /识别 出 的 结 
构 雏 能 数 公式 (8) 
召回 率 及 = 正确 识别 的 结构 功能 数 / 实 际 结构 功 
能 数 公式 (9) 
调和 平均 值 Fl =2 *P*xR/(P+R) 
公式 (10) 
整体 准确 率 、 召 回 率 和 下 值 为 对 应 各 个 类 别 P、R 
和 所 值 的 加 权 算 数 平均 值 ,作为 衡量 各 模型 整体 性 能 
的 评价 指标 。 
4.4 实验 结果 及 分 析 
本 文 分 别 采用 CNN .LSTM .CNN +LSTM 三 种 神经 
网 络 模型 在 Google 开源 的 TensorFlow 框架 上 对 章节 标 
题 .章节 段落 和 章节 内 容 三 个 层次 的 学 术 文 本 数据 进 
行 结构 功能 识别 的 实验 。CNN 卷 积 核 窗 口 高 度 设置 为 
3 4.5 ,LSTM 采用 单 向 模型 ,2 层 隐 层 ,梯度 下 降 优化 
方法 为 Adam ,激活 函数 采用 ReLU , 词 向 量 维 度 为 256， 


分 别 对 各 自 的 训练 数据 集 迭 代 学 习 200 轮 ( 若 模型 效 
果 长 时 间 未 有 提升 , 则 提前 终止 ) ,其 他 参数 采用 单 因 
子 变量 法 实验 确立 最 优 参数 ,通过 不 断 调 整 超 参数 训 
练 神经 网 络 模型 ,直至 在 训练 集 上 得 到 最 优 的 实验 结 
果 。 达 到 最 优 实验 结果 时 ,其 他 神经 网 络 模 型 参数 设 
置 如 表 2 所 示 , 各 模型 所 需要 的 训练 时 间 对 比如 图 4 
所 示 , 在 每 一 个 模型 中 从 左 到 右 依 次 对 应 章节 标题 、 章 
节 段 落 和 章节 内 容 三 个 层次 的 结果 。 

表 2 ”实验 参数 设置 


模型 章节 标题 章节 段落 章节 内 容 
CNN 学 习 率 le -05 学 习 率 0.001 学 习 率 0.001 
卷 积 核 个 数 128 卷 积 核 个 数 256 卷 积 核 个 数 128 
批 尺 寸 64 批 尺 寸 16 批 尺 寸 16 
丢弃 率 0.5 丢弃 率 0.5 丢弃 率 0.5 
LSTM 学 习 率 0.001 学 习 率 0.001 学 习 率 0.001 
隐 层 节点 数 128 隐 层 节点 数 128 隐 层 节点 数 128 
批 尺 寸 64 批 尺 寸 16 批 尺 寸 32 
丢弃 率 0.8 丢弃 率 0.8 丢弃 率 0.8 
CNN + 学 习 率 0.001 学 习 率 0.001 学 习 率 0.001 
LSTM 卷 积 核 个 数 128 卷 积 核 个 数 256 卷 积 核 个 数 256 
隐 层 节点 数 128 隐 层 节点 数 128 隐 层 节点 数 128 
批 尺 寸 64 批 尺 寸 64 批 尺 寸 8 
丢弃 率 0.8 丢弃 率 0.8 丢弃 率 0.8 
600 570 
S21 
500 
是 400 
不 
和 300 
站 200 160 
100 48 再 | 1 38 
8 mm 
CNN LSTM CNN+LSTM 
模型 


图 4 各 模型 训练 时 间 对 比 


从 图 4 可 以 看 出 ,三 种 深度 学 习 模 型 在 章节 段落 
层次 的 训练 时 间 最 长 ,章节 内 容 层次 次 之 ,章节 标题 层 
次 时 间 最 短 ,说 明 深 度 学 习 模 型 的 训练 时 间 与 数据 量 
的 大 小 和 复杂 度 成 正比 。 从 模型 的 角度 来 看 ,LSTM 模 
型 要 比 CNN 模型 的 训练 时 间 长 ,这 与 模型 自身 的 复杂 
程度 相关 ,而 CNN + LSTM 模型 并 没有 表现 出 明确 的 
时 间 增 加 或 减少 的 现象 。 

接 下 来 ,采用 训练 好 的 模型 分 别 对 章节 标题 .章节 
段落 和 章节 内 容 层 次 的 测试 集 进行 分 类 测试 ,并 统计 
各 层次 对 应 的 各 个 类 别 和 整体 的 准确 率 、 召 回 率 和 TI 
值 ,各 层次 实验 结果 分 别 见 表 3 4 、5。 

从 表 3 可 以 看 出 ,章节 标题 层次 的 整体 识别 准确 
率 均 在 85% 以 上 ,三 种 网 络 模 型 效果 相差 不 大 ,其 中 
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表 3 章节 标题 层次 实验 结果 


CNN LSTM CNN + LSTM 
章节 
P R Fl P R Fl P R Fl 
引言 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 
相关 研究 0.88 0.63 0.73 0.81 0.66 0.73 0.87 0.61 0.72 
方法 0.72 0. 87 0.79 0.70 0.86 0.77 0.72 0.84 0.78 
实验 0.81 0.77 0.79 0.81 0.73 0.77 0.78 0.79 0.78 
结论 0.98 0.91 0.94 0.98 0.91 0.94 0.98 0.90 0.94 
整体 0.86 0. 85 0. 85 0. 85 0.84 0. 84 0. 85 0. 85 0. 85 
表 4 章节 段落 层次 实验 结果 
CNN LSTM CNN + LSTM 
章节 
P R Fl P R Fl P R Fl 
引言 0.80 0. 83 0.82 0.83 0.87 0. 85 0.83 0. 85 0.84 
相关 研究 0.61 0.15 0.24 0.73 0.15 0.26 0.45 0.23 0.31 
疗法 0.53 0.76 0.63 0.57 0.82 0.67 0.60 0.68 0.64 
健 验 0.63 0.74 0.68 0.67 0.74 0.70 0.65 0.78 0.71 
结论 0.95 0.43 0.59 0.96 0.53 0.68 0. 85 0.60 0.71 
乾 体 0.69 0.65 0.64 0.73 0.70 0.68 0.69 0.69 0.68 
表 5 章节 内 容 层 次 实验 结果 
i CNN LSTM CNN + LSTM 
重 节 
P R Fl P R Fl P R Fl 
< 引言 0.86 0.93 0.89 0.92 0.57 0.71 0.84 0.87 0. 85 
相关 研究 0.68 0.24 0.36 0.25 0.03 0.06 0.35 0.26 0.30 
法 0.59 0.79 0.68 0.46 0.50 0.48 0.53 0.72 0.61 
实验 0.79 0.66 0.72 0.45 0.42 0.43 0.79 0.60 0.68 
a 缚 论 0.85 0. 84 0.84 0.49 0.88 0.63 0.80 0.79 0.80 
扩 束 体 0.75 0.74 0.73 0.53 0.52 0.50 0.70 0.68 0.68 


效 肾 最 好 的 为 CNN 模型 ,其 准确 率 、 召 回 率 和 Fl 值 分 
别 嚼 86% .85% 和 85% 。 在 各 个 结构 功能 类 别 的 识别 
结果 中 ,“ 引 言 " 的 识别 效果 最 好 ,在 三 种 神经 网 络 模 
型 上 的 准确 率 、 召 回 率 和 Fl 值 均 达到 了 100% ,“ 结 
论 " 的 准确 率 最 高 也 达到 了 98% , “相关 研究 ”和 “ 实 
验 ” 次 之 。“ 方 法 ”在 三 个 模型 的 分 类 结果 中 表现 较 
差 ,准确 率 最 高 为 72% ,通过 对 语 料 进行 分 析 , 发 现 该 
功能 部 分 章节 标题 表述 形式 多 样 ,同时 由 于 语 料 规 模 
的 限制 ,加 大 了 模型 对 特征 的 判别 难度 ,导致 基于 章节 
标题 的 “方法 "功能 识别 结果 较 差 ,而 其 他 结构 功能 标 
题 特征 的 表述 较为 规范 和 集中 ,识别 效果 较 好 。 

从 表 4 可 以 看 出 ,章节 段落 层次 的 整体 识别 准确 
率 均 在 69% 以 上 ,其 中 效果 最 好 的 为 LSTM 模型 ,其 准 
确 率 召回 率 和 了 l 值 分 别 为 73% .70% .68% 。 其 中 ， 
CNN + LSTM 模型 在 “方法 ”类别 上 的 准确 率 最 高 ,但 
F1 值 较 LSTM 低 。 在 各 个 结构 功能 类 别 的 识别 结果 
中 ,“ 结 论 ”的 准确 率 最 高 ,达到 96% ,但 召回 率 仅 为 
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53% 。 “方法 "的 准确 率 最 低 , 这 一 点 与 章节 标题 层次 
的 识别 结果 一 致 。“ 相 关 研 究 ”的 召回 率 较 低 ,说 明 该 
功能 更 容易 被 错 分 为 其 他 类 别 。 

从 表 5 可 以 看 出 ,三 种 神经 网 络 模型 在 章节 内 容 
层次 的 整体 识别 效果 相差 较 大 ,其 中 效果 最 好 的 为 
CNN 模 型 ,其 准确 率 、 召 回 率 和 Fl 值 分 别 为 75% 、 
74% ,73% ,CNN + LSTM 模型 整体 效果 次 之 ,LSTM 模 
型 整体 效果 在 三 者 中 表现 较 差 。 在 CNN 模型 各 个 结 
构 功 能 类 别 的 识别 结果 中 ,“ 引 言 " 和 “结论 ”的 识别 效 
果 最 好 ,其 准确 率 分 别 达到 86% 和 85% 。LSTM 模型 
在 “引言 "功能 上 的 准确 率 较 CNN 高 ,但 Pl 值 较 低 。 
“相关 研究 "的 召回 率 仍然 最 低 , 这 一 点 与 章节 段落 层 
次 的 识别 结果 一 致 。 

从 各 层次 识别 结果 来 看 ,章节 标题 层次 的 学 术 文 
本 结构 功能 识别 效果 最 好 ,章节 内 容 层 次 的 识别 效 曙 
次 之 ,而 章节 段落 层次 的 识别 效果 最 差 。 究 其 原因 , 章 
节 标 题 所 含 的 文本 较 短 , 且 往 往 直 接 包含 引言”“ 相 


at 
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关 研 究 ”“ 结 论 "等 信息 ,特征 更 加 明显 ,模型 比较 容易 
学 习 到 有 效 信息 ,因此 效果 最 好 ;而 段落 和 章节 内 容 所 


任务 上 ,CNN .LSTM 和 CNN + LSTM 模型 效果 相差 不 
大 , 随 着 文本 长 度 的 增加 ,在 段落 层次 LSTM 模型 表现 


包含 的 文本 信息 较 长 ,直接 以 长 文本 进行 学 习 , 加 大 了 
模型 获取 有 效 特 征 的 难度 ,效果 相对 较 差 。 从 各 模型 
识别 结果 来 看 ,三 种 模型 在 章节 标题 层次 的 识别 效果 
相差 最 小 ,在 章节 内 容 层次 的 识别 效果 相差 最 大 ,其 中 
CNN 模型 在 章节 标题 和 章节 内 容 两 个 层次 的 整体 效 
果 最 好 ,而 LSTM 模型 在 章节 段落 层次 的 整体 效果 最 
好 ,CNN + LSTM 模型 并 没有 对 各 层次 整体 识别 效果 产 
生 提 升 。 由 此 也 说 明 , 在 特征 较为 明显 的 短文 本 分 类 


更 好 ,而 当 文 本 长 度 继续 增加 到 章节 层次 ,CNN 模型 的 
表现 更 好 。 

接着 ,本 文 根 据 3. 2.2 小 节 的 投票 法 对 各 层次 的 
识别 结果 进行 融合 。 其 中 ,章节 标题 投票 .章节 段落 投 
票 和 章节 内 容 投票 为 三 种 深度 学 习 横 型 在 各 个 类 别 上 
的 集成 结果 ,综合 投票 为 三 个 层次 及 对 应 层次 下 各 模 
型 的 综合 集成 结果 。 投 票 结 果 如 表 6 所 示 : 


表 6 投票 结果 


和 章节 标题 投票 章节 段落 投票 章节 内 容 投票 综合 投票 
P R Fl P R Fl R Fl P R Fl 
1.00 1.00 0.83 0.89 0.86 0.87 0.92 0.90 0.96 0.99 0.98 
0.63 0.74 0.76 0.17 0.27 0.70 0.24 0.35 0.94 0.39 0.55 
0.89 0.79 0.59 0.79 0.67 0.59 0.79 0.68 0.68 0.32 0.78 
0.76 79 0.67 0.78 0.732 0.79 0.65 0.72 0.87 0.78 0.82 
人 0.94 0.95 0.54 0.69 0.81 0.88 0.84 0.97 0.92 0.94 
0. 85 0.86 0.74 0.70 0.69 0.75 0.74 0.73 0.86 0. 84 0.84 


段 淹 和 章节 内 容 层次 的 整体 准确 率 .召回 率 和 Fl 值 对 
人 名 度 提升 或 维持 不 变 , 说 明 本 文采 
用 用 数 投票 方法 对 各 模型 进行 集成 能 够 有 效 提升 结构 
功能 识别 的 整体 效果 , 泛 化 能 力 相 比 单一 模型 更 好 。 


综 傅 投 票 结果 的 整体 准确 率 为 86% , 较 章 节 标 题 投票 


[2 


结 此 低 1% , 较 章节 段落 投票 和 章节 内 容 投 票 结 果 的 
整 笨 准确 率 分 别提 升 16.22% 和 14. 67% ,说 明 章节 标 
题 是 学 术 文本 结构 中 最 有 代表 性 的 部 分 ,对 整体 融合 
结 困 的 贡献 最 大 。 值 得 注意 的 是 ,尽管 综合 投票 结果 
整体 准确 率 略 低 于 章节 标题 ,但 “相关 研究 ”和 “实验 ” 
两 个 功能 类 别 的 准确 率 分 别 比 章节 标题 投票 结果 提升 
5.62% 和 6.10% ,说 明 章 节 段 落 和 章节 内 容 对 这 两 个 
功能 类 别 的 判断 提供 了 很 好 的 补充 ,进一步 提高 了 模 
型 的 泛 化 能 

总 体 而 言 ,基于 投票 的 融合 方法 在 各 层次 上 均 取 
得 不 同 程度 的 提升 ,综合 各 层次 和 各 模型 的 融合 效果 


用 ,尤其 是 在 部 分 类 别 上 展现 出 较 好 的 优势 ,对 章节 标 
题 提供 了 很 好 的 补充 。 综 合 三 种 层次 能 够 提供 更 全 面 
的 判断 ,在 整体 和 各 类 别 上 均 能 达到 较 好 的 识别 效果 
和 泛 化 能 力 , 在 章节 标题 缺失 的 情况 下 通过 章节 内 文 
本 特征 对 结构 功能 进行 判断 也 具有 较 高 的 可 行 性 。 
4.5 对 比分 析 

支持 向 量 机 (SVM) 是 传统 机 器 学 习 中 常用 的 分 类 算 
法 ,在 文本 分 类 中 有 着 非常 好 的 分 类 效果 ,也 是 文献 [14] 
和 [15 ] 中 采用 的 分 类 器 。 本 文采 用 Python 机 器 学 习 工 具 
包 skleam 进行 分 类 实验 ,并 参照 文献 [14 ] 和 [15] 设 置 ,以 
词汇 频次 为 特征 进行 结构 功能 分 类 。 本 文通 过 此 实验 
对 比 传统 机 器 学 习 算 法 与 深度 学 习 算 法 在 学 术 文 本 结 
构 功 能 识别 中 的 性 能 差异 。SVM 实验 结果 见 表 7。 

从 表 7 可 以 看 出 , 相 比 传统 机 器 学 习 算法 SVM ,本 
文 所 采用 的 深度 学 习 算法 在 章节 标题 .章节 段落 和 章 
节 内 容 层次 的 最 优 准 确 率 较 前 者 分 别提 高 7. 50% 、 
25.86% 和 20. 97% ,说 明 深 度 学 习 算 法 在 学 术 文本 结 


在 整体 上 较 章 节 段 落 和 章节 内 容 的 投票 结果 提升 较 
大 , 较 章 节 标 题 层次 投票 结果 稍 差 。 从 结构 功能 类 别 
来 看 ,综合 投票 在 “相关 研究 ”" 和 “实验 ”两 个 类 别 上 提 
升 效果 较为 明显 。 由 此 说 明 ,章节 标题 层次 的 特征 最 


构 功 能 识别 任务 中 的 性 能 要 优 于 传统 机 器 学 习 算法 。 
SVM 作为 典型 的 小 样本 学 习 方 法 ,对 分 类 类 别 规则 和 

村 征 提 取 的 依赖 较 大 ,尤其 是 在 学 术 文 本 这 种 语 料 相 
似 度 较 高 的 文本 中 ,各 类 别 浅 层 特征 不 明显 ,导致 支持 


明显 ,识别 效果 最 好 ,一 般 可 直接 根据 章节 标题 判断 该 
章节 的 结构 功能 。 但 我 们 也 发 现 ,章节 段落 和 章节 内 
容 的 词汇 特征 对 结构 功能 的 识别 也 起 到 了 一 定 的 作 


向 量 的 数量 较 少 ,影响 了 SVM 的 分 类 性 能 。 相 对 来 
说 ,深度 神经 网 络 能 够 有 效 利 用 句子 之 间 和 字 与 字 之 
间 的 特征 ,在 学 术 文 本 多 分 类 任务 中 的 优势 更 大 。 
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表 7 SVM 实验 结果 
本 章节 标题 章节 段落 章节 内 容 
童 市 
P R Fl P R Fl P R Fl 

引言 1.00 1.00 1.00 0.57 0.49 0.52 0.73 0.71 0.72 
相关 研究 1.00 0.20 0.33 0. 64 0.01 0.02 0.38 0.21 0.27 

方法 0.70 0. 82 0.75 0.49 0.80 0.61 0.58 0.48 0.52 

实验 0.57 0. 80 0.67 0.61 0.50 0.55 0.56 0.72 0.63 

结论 0.97 0. 55 0.70 0.61 0. 10 0. 18 0.76 0.80 0.78 

整体 0.80 0.74 0.73 0.58 0.38 0.38 0.62 0.63 0.62 


4.6 ”错误 分 析 

为 了 进一步 发 现实 验 结果 中 的 错误 分 类 情况 ,本 
文 以 综合 投票 实验 为 分 析 对 象 ,输出 其 分 类 统计 结果 ， 
如 表 8 所 示 , 其 中 行 代表 每 一 种 结构 功能 被 划分 为 各 
类 别 的 比例 , 列 代表 各 结构 功能 被 划分 为 该 类 别 的 比 
体 - 


~ 表 8 综合 投票 实验 结果 错 分 表 

二 豆 节 ”引言 ”相关 研究 ”方法 ”实验 。 结论 合计 
( ey 襄 99.00% 0 0.80% 0.20% 0 100% 
i 5.58% 39.06% 53.22% 2.14% 0 100% 
方法 0.74% 0.59% 91.59% 6.64% 0.44% 100% 
CS 考验 0.27% 0.27% 20.42% 77.57% 1.47% 100% 
3. 0 0 1.00% 7.42% 91.58% 100% 
Rit 105.59% 39.92% 167.03% 93.97% 93.49% 500% 


从 表 8 可 以 看 出 “相关 研究 "被 错 分 为 “方法 "的 
比 鲁 最 高 ,被 错 分 为 “引言 "的 比例 次 之 ,而 其 他 类 别 
错 疹 为 "相关 研究 "的 比例 最 低 。 究 其 原因 ,在 计算 机 
语 证 学 领域 学 术 期 刊 中 ,一 方面 “相关 研究 "中 对 方 
法 < 模型 的 介绍 比较 多 ,与 “方法 "部 分 的 文本 相似 度 
较 曾 ,加 大 了 神经 网 络 模型 学 习 过 程 中 对 这 两 个 结构 
功能 的 区 分 难度 ; 另 一 方面 ,部 分 学 术 论文 的 “相关 研 
究 "章节 并 没有 单独 列 出 ,而 是 融合 进 “ 引 言 "或 “ 方 
法 "部 分 ,导致 该 功能 类 别 在 语 料 集 中 所 占 比 例 较 低 。 
“方法 " 错 分 为 “实验 "的 比例 最 高 ,而 “实验 " 错 分 为 
“方法 "的 比例 最 高 ,说 明 这 两 个 类 别 更 容易 相互 错 
分 ,结构 功能 更 为 相似 ,这 与 文献 中 结论 一 致 。 从 纵 
向 来 看 “方法 "类 别 的 比例 最 高 ,说 明 其 他 结构 功能 
更 容易 错 分 为 “方法 ” ,其 中 “相关 研究 "和 “实验 "是 错 
分 为 “方法 "比例 最 高 的 两 个 类 别 ,这 也 说 明 在 计算 机 
语言 学 领域 中 ,对 方法 的 描述 在 文章 各 个 部 分 分 布 较 
为 广泛 ,而 其 中 “相关 研究 "和 “实验 "部 分 对 方法 的 描 
述 较 多 。 

根据 上 述 错误 分 析 结 果 ,本 文 认为 可 以 从 两 个 方 
尝试 进行 改进 。 第 一 ,在 各 功能 类 别 中 增加 能 代表 
该 类 别 的 词汇 特征 信息 , 即 选择 每 一 种 结构 功能 与 其 
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他 结构 功能 中 具有 差异 的 词汇 ,从 而 为 模型 的 学 习 提 
供 更 有 代表 性 的 特征 ;第 二 ,增加 实验 数据 量 并 平衡 各 
功能 类 别 的 数量 ,神经 网 络 模型 往往 在 大 规模 的 数据 
上 才能 发 挥 出 优势 。 


本 文 创新 性 的 将 深度 学 习 方 法 引入 到 学 术 文本 结 
构 功 能 识别 研究 中 ,分 别 采用 CNN LSTM 和 CNN + 
LSTM 模型 对 学 术 文 本 章节 标题 .章节 段落 和 章节 内 容 
三 个 层次 的 文本 进行 结构 功能 识别 ,在 此 基础 上 ,采用 
投票 的 方法 探讨 了 不 同 层 次 和 不 同 模型 的 融合 效果 。 
从 各 层次 识别 结果 来 看 ,章节 标题 层次 整体 效果 最 优 ， 
章节 内 容 层 次 次 之 ,章节 段落 层次 较 差 。 从 模型 角度 
来 看 ,CNN 模型 综合 表现 比 LSTM 模型 好 ,而 CNN 与 
LSTM 的 结合 模型 在 本 研究 的 分 类 任务 中 并 没有 比 单 
独 使 用 CNN 或 LSTM 模型 的 效果 好 。 通 过 与 传统 机 器 
学 习 算法 SVM 对 比 ,深度 学 习 算 法 在 学 术 文 本 分 类 任 
务 中 的 性 能 更 优 。 从 融合 结果 来 看 ,各 层次 投票 后 的 
整体 效果 较 投票 之 前 均 有 不 同 程度 提升 ,而 综合 投票 
结果 的 整体 准确 率 、 召 回 率 和 FTl 值 分 别 达 到 86% 、 
84% 和 84% 。 整 体 来 看 ,本 人 研究 提出 多 层次 融合 的 学 
术 文 本 结构 功能 识别 模型 高 效 可 行 ,具有 实际 应 用 价 
值 和 增 量 学 习 迁移 学 习 的 能 

在 学 术 大 数据 环境 下 ,学 术 文本 的 挖掘 向 细 粒 度 
和 深层 语义 理解 方向 发 展 ,从 结构 功能 角度 理解 学 术 
文本 能 够 促进 相关 研究 向 更 深层 次 发 展 。 例 如 ,从 结 
构 功 能 角度 出 发 对 不 同 章节 的 词汇 功能 .词汇 语义 角 
色 进 行 分 析 ,提供 更 细 粒 度 的 研究 ;将 文本 结构 功能 与 
引文 功能 进行 融合 能 够 为 引文 推荐 .知识 结构 的 发 现 
提供 新 的 视角 ;此 外 ,还 可 以 探索 基于 学 术 文 本 结构 功 
能 的 学 术 论文 评价 ,为 基于 内 容 的 论文 评价 提供 支撑 。 

在 下 一 步 的 研究 中 ,本 文 将 从 两 个 方面 尝试 对 模 
型 进行 改进 。 一 是 深度 学 习 在 提取 文本 特征 时 候 , 通 
过 word embedding 将 词语 转化 为 固定 长 度 的 向 量 表 
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示 , 实 际 结果 出 现 部 分 类 别 识别 度 较 低 和 类 别 之 间 互 
相 错 分 的 问题 。 为 此 ,本 文 拟 尝 试 从 各 章节 中 词汇 的 
功能 特征 和 语义 特征 等 角度 增加 文本 分 类 特征 , 进 一 
步 提 高 类 别 之 间 的 区 分 度 , 并 将 探索 注意 力 机 制 在 提 
高 模型 对 文本 的 理解 能 力 和 对 各 个 结构 功能 类 别 的 区 
分 能 力 方面 的 应 用 。 二 是 增加 语 料 规 模 ,由 于 深度 学 
习 模 型 的 训练 对 数据 量 的 要 求 较 高 ,在 大 规模 的 数据 
集 上 能 发 挥 较 大 的 优势 ,本 文 将 结合 人 工 标注 和 机 器 
标注 构建 多 领域 大 规模 的 结构 功能 数据 集 , 进 一 步 提 
升 模型 的 性 能 和 泛 化 能 力 。 
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Research on Structure Function Recognition of Academic Text Based on Multi-level Fusion 
Wang Jiamin’”” Lu Wei” Liu Jiawei” Cheng Qikai'” 
:School of Information Management, Wuhan University, Wuhan 430072 
? Information Retrieval and Knowledge Mining Laboratory, Wuhan University, Wuhan 430072 

Abstract: [Purpose/significance | The structure function of the academic text refers to the summarization of aca- 
demic text structure and section function. While few of existed studies pay attention to the fusion of multi-level structure of 
academic text, and the traditional methods usually rely on artificial experience to build rules or features. After the analysis 
of the multi-level structure of academic text, we construct a structure function recognition model based on multi-level fu- 
sion. [Method/process| We use the academic text dataset from ScienceDirect for experiment. First, we apply deep 
learning algorithms to identify the structure function of academic text at different level. Then we employ the voting method 
to fuse the results from different levels and models. | Result/conclusion | The results show that the performance improved 
to varying degrees after fusion. The precision, recall and 上 1 value of the combined results reached 86% , 84% and 84% ， 
respectively，Compared with the traditional machine learning algorithm SVM ，the deep learning algorithm has better per- 
formance in the task of academic text classification. Finally, we analyze the misclassification of the structure function of 
aéddemic text and point out the potential application fields and future research directions. 


—, Keywords: deep learning structure function multi-level fusion academic text 
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《图 书 情报 工作 》 投 稿 作者 学 术 诚 信 声 明 


= 《图 书 情报 工作 》 一 直 秉 持 发 表 优秀 学 术 论文 成 果 促进 业界 学 术 交 流 的 使 命 ,并 致力 于 净化 学 术 出 版 环境 , 创 

建 良好 学 术 生 态 。2013 年 牵头 制订 发布 并 开始 执行 4 图 书馆 学 期 刊 关 于 恪守 学 术 道德 净化 学 术 环 境 的 联合 声明 》 
(简称 《声明 》)( 见 :http:/Awww. lis. ac. cn/CN/columm/item202. shtml) ,随后 又 牵头 制订 并 发 布 4 中 国 图 书馆 学 情报 
学 期 刊 抵制 学 术 不 端 联合 行动 计划 》( 简称 《联合 行动 计划 》)( 见 : http://www. lis. ac. cn/CN/column/item247. sht- 
ml) 。 为 贯彻 和 落实 这 一 理念 ,本 刊 郑重 声明 ,即日 起 ,所 有 投稿 作者 须 承 诺 : 投 稿 本 刊 的 论文 , 须 遵 守 以 上 《声明 》 
及 《联合 行动 计划 》, 自 觉 坚 守 学 术 道德 ,坚决 抵制 学 术 不 端 。《 图 书 情报 工作 》 对 一 切 涉嫌 抄袭 、 和 窃 等 各 种 学 术 不 
端 行为 的 论文 实行 零 容 忍 ,并 采取 相应 的 惩戒 手段 。 
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